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基于 特征 选择 的 虚拟 化 系统 语义 鸿沟 桥接 研究 ， 
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摘 要 : 虚拟 化 系统 的 强 隔离 性 质 在 为 安全 机 制 部 署 提供 可 靠 环境 的 同时 ， 也 引入 了 语义 鸿沟 问题 。 针 对 现 有 研究 普 
遍 依赖 的 软件 体系 结构 信息 、 数 据 结 构 和 控制 流 容易 被 窜改 ,采用 的 检测 算法 在 客户 机 状态 识别 方面 效率 较 低 等 问题 ， 
设计 了 特征 构造 和 窗口 标记 的 方法 对 虚拟 机 数据 进行 预 处 理 ， 以 满足 实施 数据 挖 据 的 必要 条 件 ， 建 立 了 基于 特征 选择 
的 虚拟 化 系统 语义 鸿沟 桥接 模型 ,能 够 仅 依赖 硬件 体系 结构 数据 构建 虚拟 机 执行 模式 并 进行 实 全 检测 。 实 验 结果 表明 ， 
所 设计 的 系统 模型 能 够 筛选 出 关键 的 虚拟 机 特征 ， 并 有 效 地 识别 出 客户 机 异常 行为 ， 提 高 语义 鸿沟 的 桥接 效率 ， 为 处 
理 语义 鸿沟 问题 提供 了 一 种 可 行 方案 。 
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Abstract: The strong isolation property of the virtualization syste introduces the semantic gap problem while providing a reliable 
environment for the deploying the security mechanism. Current research generally relies on the information of software 
architecture which is not reliable, for the data structures and control flows are easy to be illegally manipulated. And the detection 
algorithm employed in related research has the low efficiency in identification of guest state. For these problems, this paper 
designed the feature construction and window mark to preprocess the captured data so as to meet the necessary conditions of 
carrying out data mining, and then established the semantic gap bridging model of virtualization system based on feature 
selection, which can build the execution mode of virtual machine and carry out the security detection only relying on the 
hardware architecture data. Test results show that proposed model can screen out the key features of virtual machine and 
effectively identify the abnormal behavior of guest system, which lead to the efficiency improvement of bridging semantic gap. 
This scheme provides a feasible solution for dealing with the problem of semantic gap. 
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引言 


为 了 解决 语义 鸿沟 问题 ，Garfinkel 等 人 首次 提出 了 虚拟 机 
自省 (Virtual Machine Introspection, VMI) 的 概念 山 。VMI 是 指 在 


随 着 信息 技术 的 发 展 计算 系统 日 趋 复杂 并 暴露 出 更 多 的 攻 ”虚拟 机 外 部 ,通常 是 从 VMM 或 其 他 特权 系统 的 有 利 角度 监控 、 
恶意 程序 在 攻击 方式 上 呈现 多 样 化 的 同时 也 逐步 向 更 高 。 获取 客户 机 原始 数据 ， 并 借助 特殊 服务 程序 从 中 提取 、 还 原 客 


击 面 ， 
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特权 级 渗透 ， 给 系统 安全 防护 带 了 巨大 挑战 。 虚 拟 化 技术 凭借 户 机 内 部 状态 和 事件 的 过 程 。Garfinkel 等 人 设计 了 首 个 VMI 原 
其 底层 控制 、 域 间隔 离 、 域 外 监控 的 特性 ， 在 安全 领域 得 到 了 型 系统 Livewire， 基 于 Linux crash 分 析 工 具 建立 了 操作 系统 接 
泛 应 用 。 虚 拟 化 系统 的 强 隔离 性 质 在 为 安全 部 件 提 供 可 靠 环 库 ， 该 接口 库 主要 用 于 将 VMM 提供 的 虚拟 机 状态 转换 成 
卉 的 同时 ， 也 导致 虚拟 机 管理 器 (virtual machine monitor, VMM) 作 系统 级 视图 .InSightD] 主 要 依据 内 核 源码 与 符号 表 获 得 VMM 
视图 和 客户 机 视图 之 间 存 在 语义 鸿沟 ， 使 安全 部 件 难 以 准确 获 视图 与 客户 机 视图 之 间 的 映射 关系 进而 还 原 出 系统 相应 信息 
取 客 户 机 内 部 状态 ， 制 约 了 安全 机 制 的 有 效 发 挥 。 语 义 鸿沟 问 KDDD] 对 内 核 源码 进行 静态 指向 分 析 以 消除 指针 关系 的 歧义 ; 
题 已 成 为 目前 虚拟 化 安全 研究 的 一 个 热点 。 从 而 构建 出 精确 的 内 核 数据 定义 ， 能 够 精确 映射 虚拟 机 物理 
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Chi 
类 寄 ， 等 : 二 了 和风 全 人 村， 


录用 稿 
存 并 提取 出 运行 时 对 象 以 桥接 语义 鸿沟 。RTKDSMII 专 用 于 对 的 防护 系统 ， 协 作 型 虚拟 化 安全 模型 (cooperating virtualization 
客户 机 状态 的 实时 监控 和 分 析 来 处 理 语义 鸿沟 问题 。ODinn5l security model, CVSM) 具 备 良 好 的 抗 攻 击 性 ， 但 同时 也 在 系统 
通过 预先 缓存 重要 信息 ， 解 析 内 核 源码 并 扫描 完整 内 存 结构 来 氏 级 状态 和 系统 行为 之 间 引 入 了 语义 鸿沟 ， 使 VMM 很 难 准 确 
还 原 目标 系统 状态 。IVirtt9I 通 过 地 址 转换 和 内 容 定位 获得 虚 拒 获取 客户 机 内 部 状态 。 从 CVSM 的 虚拟 化 层 能 够 提取 出 丰富 的 
机 所 需 的 内 存 数据 ， 进 而 验证 客户 应 用 程序 的 完整 性 以 判断 硬件 体系 结构 信息 ， 基 于 这 些 信息 可 以 构造 出 多 样 的 虚拟 机 特 
标 系 统 状态 。VMSTI] 通 过 自动 识别 和 重 定向 自省 数据 到 内 核 ” 征 。 本 文 针对 CVSM 进行 适应 性 设计 ， 使 之 满足 进行 数据 挖掘 
空间 的 方式 重 构 高 级 操作 视图 。 的 必要 条 件 ， 建 立 了 基于 特征 选择 的 语义 鸿沟 桥接 模型 ， 通 过 
虚拟 化 与 机 器 学 习 结合 是 当前 虚拟 化 研究 的 新 方法 ， 这 类 ”特征 选择 处 理 虚拟 机 数据 ， 并 以 分 类 算法 进行 安全 检测 ， 用 于 
方法 通常 借助 虚拟 化 提取 客户 机 数据 流 ， 并 采用 数据 挖掘 、 统 ”提高 客户 机 中 异常 行为 的 识别 能 力 。 
计 学 、 模 式 识 别 等 方法 建立 目标 系统 的 执行 模式 ， 在 此 基础 上 网 
进行 虚拟 机 性 能 评估 、 负 载 特征 分 析 、 虚 拟 机 状态 检测 等 。 1 。 虚拟 化 导数 据 分 析 
Anand 等 人 在 虚拟 机 网 络 入 侵 检测 中 采用 了 基因 算法 进行 特征 根据 硬件 体系 结构 数据 难以 被 窜改 和 旁 绕 的 特性 ， 以 硬件 
选择 ， 并 采用 了 模糊 SVM 算法 对 审计 数据 进行 分 类 加。Udaya ” 体系 结构 层 (或 称 虚 拟 化 层 〉 收 集 的 信息 作为 数据 源 ， 在 该 层 
等 人 采用 了 神经 网 络 算法 检测 虚拟 域 中 的 网 络 包 四 。Xu 等 人 通 。 ”次 能 够 访问 和 利用 软件 层 无 法 观测 到 的 接口 ， 如 段 页 保护 、 中 
过 引入 机 器 学 习 对 虚拟 内 存 访问 模式 进行 监视 和 分 类 进行 恶意 。 断 和 异常 处 理 、 任 务 管理 、cache 管理 、 虚 拟 机 扩展 等 。 在 本 广 
程序 检测 00。Mishra 等 人 对 所 收集 的 信息 应 用 决策 树 进行 行为 。 ”研究 中 ，CVSM 中 使 用 的 数据 来 源 于 以 下 几 个 方面 : 虚拟 机 
学 习 并 分 类 ， 进 而 检测 恶意 系统 调用 模式 0。 状态 ,如 CR3、IDTR 、GDTR 、LDTR 、IO 等 ; @ 虚 拟 机 扩展 ， 
尽管 上 述 方法 在 一 定 程度 上 修复 了 语义 鸿沟 ， 提 升 了 操作 ”如 上 下 文 切 换 陷 入 、 特 权 指令 陷入 、VMCALL 指令 陷入 等 ; @ 
系统 安全 性 ， 但 这 些 方法 普遍 依赖 的 软件 体系 结构 信息 存在 数 中断 或 异常 ， 如 页 故障 、 通 用 保护 异常 等 。 
据 结 构 和 控制 流 容 易 被 窜改 的 缺陷 ， 同 时 所 采用 的 检测 算法 在 虚拟 化 系统 中 恶意 行为 高 低级 语义 之 间 存 在 一 定 的 对 应 关 
客户 机 状态 识别 方面 效率 较 低 。 尽 管 硬件 体系 结构 信息 能 够 提 ” 系 5， 表 1 列 出 了 这 种 映射 关系 。 借 助 高 低级 语义 映射 可 以 在 
供 准 确 的 系统 状态 ， 但 现 有 方法 并 不 能 从 中 推导 出 必需 的 客户 更 低层 次 提取 与 客户 机 安全 相关 的 信息 ， 并 从 中 状态 推导 出 客 
机 状态 ， 也 无 法 有 效 识别 出 客户 机 中 的 恶意 行为 。 户 机 内 部 状态 。 
本 文 基于 前 期 工作 [9 进行 拓展 研究 ， 作 为 一 种 基于 虚拟 化 
表 1 恶意 行为 的 高 低级 语义 映射 
高 级 语义 低级 语义 
中 断 钩子 IDTR 与 系统 调用 MSR 操作 ， 系 统 中 断 陷入 ， 用 户 中 断 陷入 ， 页 故障 异常 ， 通 用 保护 异常 
进程 隐藏 上 下 文 切换 陷入 ，CR3 写 操作 
模块 隐藏 户 中 断 陷入 ， 页 故障 异常 ， 通 用 保护 异常 
网 络 活动 隐藏 虚拟 IO 读 写 
虚拟 机 Rootkit 虚拟 机 进入 陷入 
网 络 攻击 虚拟 IO 读 写 
恶意 进程 。 虚拟 IO 读 写 ， 用 户 中 断 陷入 ， 页 故障 异常 ， 通 用 保护 异常 ， 无 效 操作 码 异 常 ， 调 试 异 党 
CVSM 适用 于 两 种 场景 用 于 入 侵 检 测 ， 对 正常 的 工作 不 直接 适用 于 学 习 算 法 。 对 原始 数据 进行 预 处 理 、 为 机 器 学 
负载 提供 安全 防护 ，@@ 用 于 安全 测试 或 蜜 镶 诱 捕 ， 收 集 、 分 析 ” 习 过 程 提供 准确 而 简洁 的 高 质量 数据 ， 是 提高 学 习 算法 效率 的 
恶意 程序 的 攻击 行为 。 无 论 是 入 侵 检测 还 是 安全 测试 CVSM 都 。 重要 环节 。 典 型 的 机 器 学 习 过 程 如 图 1 所 示 ， 其 中 学 习 环节 包 
需要 在 虚拟 化 层 收 集 大 量 数据 ， 为 达到 数据 收集 目的 系统 会 设 。 会 在 数据 训练 阶段 。 
置 并 产生 频繁 的 虚拟 机 退出 操作 ， 每 个 数据 集 都 可 能 包含 上 和 干 
原始 数据 特征 输入 特征 输出 结果 
个 原始 数据 ， 这 些 数据 通常 具有 高 维 、 类 不 平衡 、 类 基本 平衡 | a | 
三 个 特点 ， 不 仅 增加 了 计算 时 间 也 降低 了 检测 精度 ， 因 此 在 实 2 
验 过 程 中 并 不 适合 对 这 些 数据 进行 直接 处 理 。 和 
图 1 机 器 学 习 过 程 
2 ”CVSM 中 的 语义 鸿沟 桥接 由 图 1 可 知 ,学 习 算法 通常 并 不 直接 对 原始 数据 进行 处 理 ， 
2.1 语义 鸿沟 桥接 模型 为 此 需要 对 CVSM 进行 适应 性 设计 , 对 所 收集 的 数据 进行 预 处 
从 虚拟 化 层 收集 的 数据 具有 高 维 、 元 余 ` 包 含 噪声 等 特点 ， 里 以 实施 特征 选择 ， 进 而 筛选 出 符合 学 习 算法 的 有 效 输 入 。 数 
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据 输 入 到 学 习 算法 之 前 的 必要 处 理 


类 害 ， 


和 网 络 IO 操作 、 页 故障 、TLB 刷新 等 


a) 数据 收集 。CVSM 必须 能 外 
OO 


纺 收 集 数据 ， 合 学 习 第 法 


和 测试 。 


b) 数据 描述 。 CVSM 应 该 对 所 收集 世 
量 与 比较 的 数值 (或 特征 
元 属性 、 数 值 属性 等 ) 和 统 


据 转换 成 可 以 度量 
别离 群 点 。 数 据 包括 属性 
计 描 述 ( 距 离 、 方 差 等 )。 
c) 数据 标记 。CVSM 应 该 
的 正常 数据 和 异 
由 于 CVSM 中 存在 语 
d) 在 线 和 离线 数据 处 到 
要 统计 某 个 时 间 段 内 的 数据 量 与 分 布 , 要 求 CVSM 提供 离线 组 
存 功 能 。 检测 阶段 则 要 求 CVSM 能 够 及 时 处 理 娄 


据 中 应 该 包含 正常 


备 数据 标记 能 力 , 采用 带 标 i 
常数 据 对 学 习 算法 (监督 式 学 习 ) 进行 训练 。 


8。 学习 算 法 训练 阶 


应 能 力 并 减少 空间 存储 。 
数据 处 理 功 能 

当前 的 入 侵 检 测 技术 主要 有 误 用 检测 和 
的 一 个 重要 设计 


此 CVSM 应 该 同时 


文采 用 了 异常 检 疯 
沟 桥接 模型 (如 图 
第 选 、 客 户 机 状 


客户 机 状态 检测 | 
人 


1 
客户 机 数据 筛选 


SN 


2.2 数据 处 理 流程 
0 


I 方法 , 构建 了 基于 打 


j 征 选择 的 语义 鸿沟 桥接 模型 


部 件 的 位 置 差异 ， 可 以 将 机 器 学 习 在 CVSM 


中 的 应 用 模型 


前 端 在 VMM 
事件 提取 ,VMM 捕 


3 机 器 学 习 模 型 组 成 及 数据 流程 


层 产 生 的 原始 数据 ， 如 磁盘 


学 方法 将 原始 数据 转换 成 相应 的 特征 ， 
后 端 在 SPM 中 , 包括 特征 选择 、 
部 分 :a) 特 征 选择 ,从 全 部 特征 集合 
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地 征 构造 ,借助 统计 


于 后 续 的 机 器 学 习 。 


E 常 模式 建立 和 异常 检测 三 个 
少数 高 质量 特征 , 降 


低 时 间 复 杂 度 并 提高 学 习 算 法 效率 ，b) 正 常 模式 建立 : 构造 出 


虚拟 机 负载 正常 的 执行 模式 ; c) 异 常 检测 ,识别 偏离 正常 执行 模 


式 的 异常 行为 。 


段 和 测试 阶段 。 


图 3 可 知 , 机 器 学 习 在 CVSM 上 的 数 提 


a) 训 练 阶 段 。 首 先 运 


出 尽 可 能 多 的 特征 ， 人 
筛选 特征 的 基础 上 建立 正 党 


虽 流 程 包括 训练 阶 


行 J 人 牛 并 构造 


后 端 进行 处 理 ， 在 


和 异常 行为 的 负载 ， 评 估 这 些 行为 与 


为 分 类 预测 的 依据 。 


b) 测 试 阶段 。 在 前 
后 仅 构 造 经 过 筛选 的 高 质量 特征 
与 训练 阶段 建立 的 了 


常 行为 。 


3 ”虚拟 机 特征 构造 


3.1 事件 提取 


CVSM 中 事件 是 指 从 硬件 体系 结构 
息 。VMM 对 涉及 体系 结构 的 事件 进 和 
多 个 虚拟 机 的 正常 运行 ， 是 虚拟 化 中 基 
事件 包括 执行 特权 指令 ， 


司 时 运行 包含 正常 


正常 行为 的 偏离 程度 并 作 


端 运 和 人 事件 ， 然 


Im 
[| 


吊 首 检 测 上 


元 
和 件 中 是 否 包 外 


E 常 执行 模式 对 比 ， 确 定 事 


取 的 原始 数据 和 信 
重新 解释 以 确保 


ff 含 信息 的 丰富 程度 


有 件 主要 包括 两 类 : 


婴 | 


a) 虚拟 机 事件 。 
级 事件 ， 如 客户 机 修改 控制 寄存 器 、 明 
b)VMM 事件 .从 VMM 提取 的 与 
客户 机 的 状态 以 及 客户 机 与 VMM 之 
VMM 状态 ， 例 如 客 广 
陷入 VMM 地 址 空间 。 


除了 监控 事件 的 产 和 9 
如 对 于 磁盘 IO 事件 需要 给 出 
等 具体 内 容 。 表 2、3 分 


事件 ， 所 提取 事件 应 该 有 助 了 


给 出 了 与 这 些 事件 
3.2 事件 流 分 割 


T 


机 可 改 


的 “ 限 权 ”原则 。 典 型 
9 存 、 外 设 等 )。 
的 性 能 密切 相关 , 为 了 能 够 更 准 
地 还 原 出 客户 机 内 部 状态 ， 必 须 广泛 收集 各 种 类 型 的 事件 。 


hal 
un 
全 


与 虚拟 机 中 客户 机 相关 的 体系 结构 或 系统 
上 新 TLB、 写 磁盘 等 。 

身 状 态 相 关 的 事件 。 
间 的 交互 也 会 影响 到 
令 时 会 从 虚拟 机 地 址 空间 


还 需要 提取 出 与 | 例 
节 大 小 和 读 写 类 型 
> 别 列 出 es 事件 和 VMM 
a 因此 同时 


TCP 协议 中 采 


窗口 pet | 


效率 。 基 本 方法 为 : 让 
后 借助 统计 学 方法 将 片段 中 也 
(包含 一 个 片段 中 所 有 的 特 


4 所 示 。 


制 ， 本 文 也 采用 了 
后汉 生 
车 时间 的 连续 片段 ， 之 

牛 转换 成 特征 值 ， 最 后 将 
征 值 ) 发 送 到 后 端 分 机。 窗口 如 图 
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表 2 虚拟 机 事件 以 及 客户 机 中 可 能 的 高 级 语义 
虚拟 机 事件 事件 内 容 高 级 语义 
磁盘 IO 磁盘 扇 区 ， 字 节 大 小 ， 读 或 写 磁盘 读 / 写 事件 
网 络 IO 字 节 大 小 ， 发 送 或 接收 网 络 发 送 /接收 事件 
读 / 写 CR 寄存 器 号 ， 数 值 ， 读 或 写 与 具体 寄存 器 相关 ， 例 如 写 CR3 可 能 为 进程 切换 
页 故障 普 误 号 ，EIP 数值 违反 写 保护 或 启动 新 进程 
TLB 刷新 全 局 标记 ， 新 CR3 上 下 文 切换 
页 无 效 页 无 效 的 线性 地 址 程序 试图 越界 访问 
加 载 段 描述 符 段 寄存 器 ， 基 地 址 等 程序 启动 
当前 特权 级 特权 级 当前 运行 用 户 或 内 核 代码 
LDT，GDT，TSS 访问 CR2 中 的 故障 地 址 程序 启动 或 上 下 文 切 换 
模式 指定 寄存 器 寄存 器 ， 数 值 ， 读 或 写 内 核 设 定 CPU 工作 环境 ， 标 志 CPU 工作 状态 
快速 系统 调用 SYSENTER CS_ MSR 户 到 内 核 的 快速 调用 
表 3 VMM 事件 以 及 客户 机 中 可 能 的 高 级 语义 
VMM 事件 事件 内 容 高 级 语义 
设置 或 退出 虚拟 化 模式 一 进入 或 退出 支持 客户 机 运行 的 模式 
启动 虚拟 机 虚拟 机 控制 结构 地 址 客户 机 开始 或 重新 运行 
读 写 虚拟 机 控制 结构 虚拟 机 控制 结构 中 相应 的 子 结构 地 址 ”获取 客户 机 当前 状态 ， 设 置 或 修改 客户 机 的 执行 模式 
虚拟 机 调 = 客户 机 预知 运行 于 虚拟 机 并 向 VMM 发 出 退出 请 求 
设置 虚拟 机 退出 处 理 程序 退出 程序 入 口 及 内 容 客户 机 对 真实 机 的 操作 能 力 被 限制 、 改 变 


1< 一 gm 一 > 一 窗口 一 | 


件 类 型 ,基于 单一 事件 构造 的 特征 可 以 从 特定 角度 表达 系统 行 


为 
让 


全 


b) 寻 


J+ 


基于 多 个 事件 构造 的 特征 则 和 
牛 信息 , 既 可 以 根据 


E 够 从 不 同 角度 表达 系统 行为 ; 


事件 是 否 发 生 构造 特征 (如 产生 CR3 写 


1 
| -一 操作 )， 也 可 以 根据 事件 所 附带 的 信息 构造 特征 (如 CR3 写 操 
| 的 作 的 具体 数值 ); c) 时 间 ,包括 客户 机 所 感知 的 虚拟 时 间 和 VMM 
所 感知 的 真实 时 间 , 可 以 在 有 限时 间 内 构造 出 包含 特征 的 窗口 ， 
采用 基于 时 间 的 窗口 有 两 个 优势 ，@D 每 个 窗口 代表 了 相等 。 ”基于 时 间 信 息 可 以 生成 一 系列 连续 的 窗口 ， 时 间 也 可 以 用 于 统 
的 执行 时 间 ， 方 便 窗 口 之 间 进行 比较 ，@ 能 够 以 窗口 为 单位 进 。 计 截 止 到 某 个 时 间 点 的 事件 累积 状态 ; d) 事件 语义 ,不 同 抽象 级 
行 属性 判断 (正常 或 异常 )。 窗 口 长 度 也 会 对 系统 性 能 造成 影响 。 ”所 代表 的 语义 能 够 从 不 同 角度 表达 系统 行为 ， 因 此 也 可 以 从 语 
较 长 的 窗口 可 以 捕获 更 多 行为 ， 较 短 的 窗口 则 可 以 缩短 检测 时 。” 义 角度 构造 特征 。 虚 拟 机 特征 反映 了 客户 机 行为 ， 可 以 构造 出 
间 。 实 验 发 现 窗口 长 度 在 2~4 s 时 可 以 取得 较 好 的 平衡 ， 相 应 。 基于 系统 和 进程 的 特征 ，VMM 特征 既 可 以 反映 VMM 行为 ， 
的 窗口 不 仅 包含 了 丰富 的 信息 能 够 完成 分 类 ， 也 能 在 较 短 时 间 ”也 能 间接 反映 客户 机 行为 。 
内 识别 出 异常 行为 。 根据 上 述 几 种 特征 维 ， 本 文采 用 了 统计 学 方法 将 事件 转换 
3.3 ”特征 设计 空间 成 特征 选择 算法 易于 处 理 的 特征 向 量 ,构造 了 两 类 虚拟 机 特征 : 
CVSM 中 前 端 向 后 端 提 供 的 特征 包括 原始 特征 和 处 理 特征 。 速率 特征 和 关系 特征 。 
原始 特征 包含 所 有 从 事件 中 提取 的 未 处 理 信息 。 原 始 特征 之 间 。 “3.3.1 速率 特征 构造 
可 能 非常 相近 而 呈现 元 余 ， 例 如 CR3 修改 通常 伴随 TLB 刷新 速率 特征 描述 了 一 个 窗口 内 特定 事件 的 产生 频率 ， 通 过 存 
蜗 作 ， 原 始 特征 中 可 能 只 有 部 分 信息 与 系统 状态 改变 相关 ， 如 ”。” 储 该 窗口 长 度 内 的 事件 流 并 统计 其 中 每 类 事件 发 生 的 次 数 实现 ， 
果 采 用 原始 特征 作为 输入 ， 学 习 算 法 必须 处 理 上 述 问题 ， 处 理 ”图 5 表示 了 从 事件 流 中 构造 出 速率 特征 的 实例 。 所 构造 的 速率 
特征 是 对 事件 进行 过 滤 、 聚 合 或 变换 得 到 的 特征 ， 并 不 包含 从 ”特征 包括 页 故障 、 控 制 寄存 器 修改 、 磁 盘 和 网 络 的 IO 操作 等 ， 
事件 中 提取 的 所 有 信息 而 是 信息 的 组 合 模式 。 本 文采 用 了 处 理 。 ”这 些 特征 为 预测 系统 行为 提供 了 丰富 信息 。 


特征 作为 学 习 算法 的 输入 。 


原始 事件 能 够 用 于 特 和 


E 构 造 的 特征 维 包 含 多 个 方面 : 


头 的 表示 虚拟 机 事 伯 


表 4 列 出 了 所 构造 的 部 分 速率 特征 ， 其 中 以 RATE-VM 开 
F, 以 RATE-VMM 开头 的 表示 VMM 事件 。 


Nhl 
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3.3.2 关系 4 


2 
三 
三 
& 
o 


Disk IO 
| Net IO 
‘Seg Load 
PF 


|‘ Inv Page 
Disk IO 
CR4 Read 
Timer 
Net IO 


| Disk IO 
‘Timer 


| NetIO 
Inv Page 


‘ Timer 


> ”事件 流 


图 5 速率 特征 构造 


ml 


4 ”部 分 速率 特征 实例 


特征 名 称 


RATE-VM-PAGE-FAULT-P-0 


RATE-VM-TLB-FLUSH 
RATE-VM-GDT-WRITE 
RATE-VM-TSS-WRITE 
RATE-VM-CPL-SET 
RATE-VM-CRO-WRITE 
RATE-VM-CR3-WRITE 
RATE-VM-TRAP-RATE 
RATE-VM-PAGE-FAULT 


RATE-VMM-SETGUEST-EXITHANDLER 
RATE-VMM- RESUME-VM-EXECUTION 


中 某 些 事件 可 


有 相同 的 速率 但 产生 次 序 不 同 ， 


能 
E 只 能 反映 单个 特征 的 发 生 频率 ， 并 不 能 反映 事件 


之 间 的 关系 ， 
题 ， 可 以 将 事 


氏 


因此 速率 特征 认为 这 些 窗 
牛 的 产生 和 事件 的 统计 值 相 结合 构造 关系 特征 ， 


吏 


寺 征 的 构造 方法 ， 义 自 


序 ，Y 轴 表 示 A、B 产 4 
事件 B 产生 则 YY 值 减 1。 


访 污 


黑 开 村 嘲 


表示 


FE 次 数 的 差异 ， 如 果 导 


口 相同 。 为 解决 上 述 问 


F A、B 的 产生 
和 件 A 产生 则 Y 


TE 


nk] 


基于 事件 产生 和 统计 值 的 关系 特征 


章 开 次 一 > 


所 构造 的 关系 特征 包括 以 下 数值 : a) 序列 总 数 


(total sequence), 所 有 相同 类 型 事件 连续 产生 的 总 次 数 ，b) 最 大 


差异 (max discrepancy), 事 件 A、B 在 Y 轴 方 向 上 的 最 大 差 值 ; 


c) 最 大 运行 长 度 (max run length), 相 同 寻 
值 ，d) 最 小 运行 长 


村 


度 (min run length), 相 同 习 


件 连续 产生 次 数 的 最 大 
连续 产生 次 数 的 


最 小 值 ; e) 平 均 运 行 长 度 (meanrunlength), 所 有 运行 长 度 的 平均 


值 ;f) 曼 - 


hil 
:出 


| 


寺 尼 U 检验 (Mann-Whitney U test), 用 于 


F 度量 事件 A、 
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E 时 的 随机 程度 g) 曼 - 惠 特 尼 U-P 值 (Mann-Whitney 
U-P value): 表示 曼 - 惠 特 尼 U 值 的 规范 化 统计 ， 


E 值 进行 比较 。 


表 5 部 分 关系 特征 实例 


特征 名 称 


REL-VM-GDT-WRITE-VS-CPL-SET-0[maxDiscrepancy] 
REL-VM-DISKIO-READ-VS-DISKIO-WRITE[maxDiscrepancy] 


REL-VM-DISKIO-READ-VS-NETWORKIO- 


WRITE[MannWhitneyU] 


REL-VM-DISKIO-READ-VS-NETWORKIO- 


WRITE[Mann WhitneyP] 


REL-VMM-ENTER-VM-MODE-VS-EXIT-VM- 


MODE[Mann WhitneyP] 


1[maxDiscrepancy] 


REL-VM-CR3-WRITE-VS-TSS-WRITE[meanRunValue] 
REL-VM-TSS-WRITE-VS-TLB-FLUSH[maxDiscrepancy] 
REL-VM-PAGE-FAULT-P-0-VS-PAGE-FAULT-P-1[Mann WhitneyP] 
REL-VM-PAGE-FAULT-ID-0-VS-PAGE-FAULT-ID- 


上述 方法 在 CVSM 中 构造 了 关系 特 条 
网 络 WO，, 磁盘 读 写 字 节 数 ， 内存 读 写 操作 引发 
5 列 出 了 所 构造 的 部 分 关系 特征 实例 ， 其 中 RE 
几 事 件 之 间 的 关系 特征 ，REL-VMM-VM 表示 VMM 和 
事件 之 间 的 关系 特征 ，REL-VMM 表示 


T 


窗口 标记 


FE， 数 寺 


VMM 事件 之 间 


测试 负载 生成 的 正常 窗口 与 恶意 程序 生成 的 异常 窗 


羊 本 ， 本 文 首先 采用 了 Boosting 类 算法 完成 窗 


尘 ， 再 借助 分 类 算法 识别 异常 窗口 。 训 练 Boosting 类 算 


法 时 需要 对 样本 进行 标记 , 因此 CVSM 需要 提供 窗 


用 带 标记 的 窗口 训练 特征 选择 算法 。 


使 VMM 能 够 确定 恶意 行为 活动 周期 ， 


口 进行 标记 存在 两 方面 困难 : QD 关 于“ 恶 
准确 定义 ; 外 即使 可 以 借助 客户 机 内 部 的 安全 软件 识 
行为 ， 但 语义 鸿沟 导致 VMM 了 
意 行为 。 为 桥接 语义 鸿沟 ， 需 要 在 客户 机 的 高 级 操作 和 虚拟 机 


民 难 判断 原始 数据 中 是 


的 识别 粒度 也 只 能 精确 到 窗口 级 别 。 对 窗 


的 是 方便 对 


虽 源 包括 ; 
的 页 故障 等 。 表 
L-VM 开头 的 表 


口 标 记 机 种 


(1 
大 们 / 


昌之 间 建 立 关 联 。 需 要 说 明 的 是 ， 事 件 流 以 窗口 为 和 
给 后 端的 学 习 算 法 ， 即 使 建立 


了 高 低级 语义 关联 ， 学 习 算 法 对 


成 的 窗口 标记 为 异常 窗口 。 


于 系统 行为 的 高 


将 活 


氏 级 语义 之 间 存 在 映射 关系 ，VMM 可 
氏 级 事件 的 活动 规律 预测 出 客户 机 高 级 行为 状态 ， 从 而 


直接 对 窗口 进行 标记 。 由 于 正常 负载 在 运行 期 间 不 会 或 极 少 创 
的 进程 ， 如 果 在 某 个 时 间 段 内 进程 数量 显著 增加 ， 则 这 些 


进行 标记 的 关 
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录用 稿 类 
进程 很 可 能 是 恶意 程序 。VMM 需要 区 分 并 跟踪 恶意 程序 产生 中 推导 和 识别 客户 机 状态 的 能 力 ， 测 试 应 该 体现 : 中 对 反映 系 
的 事件 ， 将 包含 这 些 事件 的 窗口 标记 为 异常 窗口 。 统 状 态 的 关键 虚拟 机 特征 的 筛选 ; @ 亚 意 行 为 的 检测 效果 @) 
性 能 开销 。 
局 3 5.1 测试 集 
8 到 CVSM 的 一 个 主要 优势 在 于 方便 部 署 ， 向 其 他 平台 移植 时 
和 。 只 需要 修改 与 体系 结构 相关 的 事件 收集 方式 ， 无 须 对 客户 机 操 
和 作 系 统 进行 修改 ， 因 此 可 以 支持 多 种 类 型 的 虚拟 机 。 典 型 的 服 
| 务 器 应 用 通常 包括 一 个 主 进程 和 一 个 后 台 进程 ， 这 类 负载 所 产 
由 训 曾 一 生 的 系统 行为 相对 稳定 ， 因 此 本 文 针 对 虚拟 服务 器 平台 进行 了 
所 测试 。 为 产生 多 种 类 型 的 负载 (CPU 密集 型 、 磁 盘 IO 型 、 网 
络 IO 型 )， 反 映 多 样 的 系统 行为 ， 采 用 了 不 同类 型 的 服务 器 和 
进程 具有 不 同 的 页 目录 基地 址 , 该 地 址 可 以 通过 CR3 获取 ， ”虚拟 应 用 。 用 于 产生 正常 负载 的 三 种 测试 集 如 表 6 所 示 。 
因此 VMM 通过 收集 、 识 别 CR3 可 以 区 分 客户 机 中 的 进程 。 图 表 6 产生 正常 负载 的 测试 集 
7 反映 了 负载 Database、Web 和 EMail 运行 过 程 中 VMM 所 观 数据 集 服务 器 虚拟 应 负载 
测 到 的 进程 增长 情况 ， 从 中 可 以 看 出 在 负载 的 主要 运行 区 间 内 pe 人 
进程 创建 的 数量 并 无 显著 增加 。 为 比较 注入 恶意 程序 后 客户 机 。 Database 。 天 系统 MySQL Server (TPC-O) 
中 的 进程 增长 数量 ， 在 负载 运行 期 间 启动 了 四 个 恶意 程序 ， 相 i 
应 的 进程 增长 情况 如 图 8 所 示 ， 从 中 可 以 看 出 正常 负载 和 恶意 本 Re po mo a 
程序 交替 运行 过 程 中 存在 明显 的 进程 增长 现象 ， 新 创建 的 进程 邮件 服务 Exchange 。 Exehange 负载 模拟 器 
恶意 程序 有 关 。 ee 器 Server (LoadSim) 
天 上 同时 为 在 服务 器 上 生成 异常 负载 ， 从 Malfease 、Open 
本 | Malware、VX heavens、VXShare 等 库 中 收集 了 已 知 和 未 知 的 恶 
| 意 软 件 。 根 据 行为 差异 将 这 些 软件 分 为 四 类 : Trojan、Infostealer、 
| Downloader 和 Backdoor， 可 以 产生 修改 数据 、 安 装 程序 、 沪 露 
a 言 息 、 拒 绝 服务 等 恶意 行为 。 
图 8 正常 负载 与 恶意 程序 混合 运行 中 的 进程 增长 dl - 
虚拟 机 特征 选择 的 目的 是 从 VMM 层 所 收集 的 事件 中 提取 
基于 以 上 观测 和 分 析 ，VMM 窗口 标记 的 步骤 如 下 : 外 出 对 识别 异常 行为 有 价值 的 特征 。 特 征 选择 算法 采用 AdaBoost- 
VMM 缓存 两 个 窗口 并 统计 其 中 的 CR3 数值 , 将 CR3 数量 显著 ”CR049， 该 算法 采用 贡献 率 (Contribution Rate, CR) 作 为 权重 来 衡 
变化 区 间 内 的 CR3 定义 为 异常 CR3 并 作 记 录 ; @ 检 测 所 缓存 ” 量 每 个 特征 的 重要 程度 ， 通 过 对 特征 权重 排序 可 以 对 虚拟 机 特 
的 窗口 中 是 否 包 含 异常 CR3， 如 果 包 含 则 说 明 该 窗口 含有 恶意 征 进行 有 效 分 析 。 
进程 所 产生 的 事件 ， 将 该 窗口 标记 为 异常 窗口 ; @ 两 个 窗口 长 5.2.1 特征 关联 度 
度 内 会 产生 大 量 的 CR3 操作 ， 从 一 次 异常 CR3 产生 直至 切换 关系 特征 反映 了 不 同事 件 之 间 的 交互 ， 在 增强 学 习 算 法 输 
到 正常 CR3 之 间 的 所 有 事件 都 由 同一 进程 产生 , 因此 包含 这 些 入 的 同时 也 产生 了 元 余 特 征 ， 宛 余 特 征 之 间 强 相关 且 不 包含 太 
事件 的 连续 窗口 都 是 异常 窗口 。 窗 口 标记 的 示意 图 如 图 9 所 示 ， 多 额外 信息 。 图 10(a) 表 示 了 宛 余 特征 “RATE-VM-CR3-WRITE” 
其 中 灰色 部 分 表示 异常 CR3。 和 “RATE-VM-TSS-WRITE” 之 间 的 分 布 。 但 相关 并 不 一 定 意味 
着 缺乏 信息 ， 存 在 噪声 的 情况 下 同时 选择 相关 的 特征 有 助 于 完 
>< 8 Sa 成 更 好 的 分 类 及 噪声 消除 ， 图 10(b) 表 示 大 致 元 余 特 征 “RATE- 
3° 加 : a ne VM-CR0-WRITE” 和 “RATE-VM-CR4-WRITE” 之 间 的 分 布 。 
异常 窗口 > 如 果 两 个 类 的 条 件 密 度 的 协 方差 矩阵 在 第 一 主 方向 相同 ， 
a 但 对 类 中 心 进行 相同 的 移 位 ， 则 这 样 的 特征 虽然 相关 但 并 不 元 
9 窗口 标记 示意 图 
余 , 同时 选择 这 些 特征 能 够 提供 有 利于 分 类 的 信息 。 图 10(c) 表 
5 ”测试 与 分 析 示 了 类 条 件 AE ne 
INVALIDATE-PAGE”* 之 间 的 分 布 。 尽管 根 据 事件 交互 构造 了 关 
本 文 测试 的 主要 目的 是 评估 CVSM 从 硬件 体系 结构 事件 系 特征 ， 但 并 非 所 有 事件 交互 都 有 意义 ， 有 可 能 产生 噪声 和 无 


201804.02034v1 


chinaXiv 


hinaXiv 合 作 期 刊 


C 
录用 稿 娄 害 ， 等 : 基于 特征 选择 的 虚拟 化 系统 语义 鸿沟 桥接 研究 


关 特 征 。 无 关 特 征 间 县 有 相同 的 类 条 件 概 率 密度 函数 ， 并 不 包 ”种 负载 选择 出 带 CR 权重 的 特征 ， 表 7(a)(b)(c) 分 别 列 出 了 
含有 价值 的 信息 ， 实 验 表 明 与 加 载 段 描述 符 有 关 的 事件 之 间 产 。 ”Database、Web 和 EMail 上 选 出 的 权重 最 高 的 5 个 虚拟 机 特征 。 
生 的 是 无 关 特 征 ， 图 10(d) 表 示 了 无 关 特 征 的 分 布 。 可 以 看 出 ，Q@ 关 系 特征 所 占 比 重大 于 速率 特征 ， 三 个 测试 负载 
中 所 有 的 速率 特征 比重 小 于 20%， 而 且 关系 特征 中 也 包含 了 一 
部 分 速率 特征 所 描述 的 信息 ， 表 明 特 征 选择 算法 能 够 去 除 宛 余 


人 h 


特征 。 扣 不 同 负载 上 所 选 的 特征 具有 相似 性 ， 三 个 测试 负载 中 
2 权重 较 高 的 特征 分 为 五 种 类 型 : GDT 特征 、TLB 刷新 特征 〈 包 
od 0 区 含 CR3 操作 事件 )、 磁 盘 与 网 络 IO 特征 、 页 故障 特征 、VMM 

0 0.2 , 0.6 0.8 1 0 0.2 和 0.6 0.8 1 特征 (包含 模式 切换 和 页 故障 )。 
ee ee Databse 负载 上 最 好 的 特征 为 "REL-VM-PAGE-FAULTP- 
| 0-VS-PAGE-FAULT-P-1[MannWhitneyP1]”， 这 是 因为 Database 
0.8 0.8 为 磁盘 密集 型 负载 会 产生 大 量 的 磁盘 读 写 操作 ， 数 据 在 磁盘 和 
0 PY 内 存 之 间 频 繁 交换 会 导致 大 量 的 页 故障 事件 。Web 负载 上 最 好 
02 和 的 特征 为 “REL-VM-NETWORKIO-READ-VS-DISKIO-WRITE 
"0 02 04 06 08 1 "0 02 04 06 08 1 [MannWhitneyP1]”， 是 由 网 络 IO 事件 和 磁盘 IO 事件 组 成 的 
人 类 条 件 优 各 特征 分 布 (d) 元 闫 咎 全 分布 关系 特征 ， 此 类 事件 也 与 Web 的 负载 类 型 一 致 。 Email 负载 中 


最 好 的 特征 为 “REL-VMM-VM-EXIT-VM-MODE-VS-PAGE- 
FAULTUS-0[MannWhitneyP1]”， 该 特征 反映 两 种 事件 的 关系 : 
5.2.2 频繁 特征 系统 从 虚拟 机 模式 退出 到 VMM 模式 ， 由 VMM 对 客户 机 敏 
AdaBoost-CR 算法 进行 虚拟 机 特征 选择 ,可 以 为 每 一 感 操 作 进行 解释 。 @VMM 在 解释 客户 机 行为 中 产生 了 页 故障 。 
表 7 负载 上 5 个 权重 最 高 的 特征 

(a) Database 负载 


对 


10 虚拟 机 特征 关联 度 与 分 布 


A 


采 


J 


特征 名 称 CR 权重 
REL-VM-PAGE-FAULT-P-0-VS-PAGE-FAULT-P-1[Mann WhitneyP1] 0.376832 
REL-VM-NETWORKIO-READ -VS-DISKIO-WRITE [MannWhitneyP2] 0.120571 
REL-VM-CR3-WRITE-VS-TSS-WRITE[meanRunLength] 0.111837 


REL-VMM-VM -EXIT-VM- MODE-VS-PAGE-FAULT-US-0[MannWhitneyU1] 0.109041 


REL-VM-GDT-WRITE-VS-CPL-SET-3[MannWhitneyU1] 0.099245 
(b) Web 负载 
特征 名 称 CR 权重 


REL-VM-NETWORKIO-READ -VS-DISKIO-WRITE [MannWhitneyP1] 0.456714 


RATE-VM-DISKIO-READ 0.265052 
REL-VM-CR3-WRITE-VS-CR4-WRITE[meanRunLength] 0.166301 
REL-VM-CR3-WRITE-VS-CR0-WRITE[MannWhitneyP2] 0.105268 

RATE-VM-PAGE-FAULT-WR-1 0.074971 


(c) EMail 负载 
特征 名 称 CR 权重 
REL-VMM-VM-EXIT-VM-MODE-VS-PAGE-FAULT-US-0[MannWhitneyP1] 0.334201 


ly 


REL-VM-PAGE-FAULT-P-0-VS-PAGE-FAULT-P-1[Mann WhitneyP1] 0.218797 
RATE-VM-DISKIO-WRITE 0.144215 
RATE-VM-NETIO-WRITE 0.112438 

REL-VM-TSS-WRITE-VS-TLB-FLUSH[maxRunLength] 0.059907 


对 虚拟 机 的 特征 分 析 表 明 CVSM 能 够 有 效 筛选 出 高 质量 。 率 和 检测 速度 。 
特征 ， 也 说 明 并 非 所 有 的 原始 事件 都 能 够 产生 有 价值 的 特征 ， 5.3 ”异常 检测 分 析 
仅 需 要 构造 与 高 频 度 事件 相应 的 特征 , 有 利于 提高 CVSM 检测 在 特征 选择 环节 后 需要 采用 分 类 算法 ， 根 据 所 选 特 和 


吕 


所 
Bn 
nt 
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数据 处 理 方式 上 具有 显著 差异 ， 并 且 在 主要 指标 方 
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以 化 系统 语义 鸿沟 桥接 研究 


面具 有 较 强 


惰 学 习 算法 ， 通 过 计算 新 数据 与 训练 数据 特征 值 之 间 的 距离 区 


的 互补 性 ， 


分 近邻 点 以 实施 分 类 ;LOF09 是 基于 密度 的 离 群 点 检测 方法 中 
的 代表 性 算法 ， 能 为 数据 集中 的 每 个 点 计算 一 个 离 群 因 子 LOF 


寻 此 选择 了 K-NN 和 LOF 两 种 算法 对 所 选 特征 子 引 
进行 分 类 。 表 8 和 表 9 分 别 给 出 了 特征 选择 算法 与 K-NN、LOF 
算法 组 合 时 三 种 负载 的 检测 率 、 误 报 率 以 及 AUC 


疆 电 


A 


结果 。 
值 以 衡量 该 点 是 否 异 常 。 考 虑 到 K-NN 和 LOF 两 种 分 类 算法 在 
表 8 特征 选择 算法 和 K-NN 算法 组 合 时 的 测试 结果 
Database Web Email 
恶意 程序 FP(%) TP(%) AUC(%) FP(%) TP(%) AUC(%) FP(%) TP(%) AUC(%) 
Downloader 9.00 95.0 86.0 4.00 97.0 93.0 3.00 96.0 93.0 
Infostealer 6.00 98.0 92.0 $5.00 98.0 93.0 6.00 98.0 92.0 
Trojan 8.00 93.0 85.0 2.00 98.0 96.0 4.00 92.0 88.0 
Backdoor 4.00 94.0 90.0 2.00 96.0 94.0 2.00 98.0 96.0 
平均 值 7.00 95.0 88.0 3.00 97.0 94.0 4.00 96.0 92.0 
表 9 特征 选择 算法 和 LOF 算法 组 合 时 的 测试 结果 
Database Web Email 
恶意 程序 FP(%) TP(%) AUC(%) FP(%) TP(%) AUC(%) FP(%) TP(%) AUC(%) 
Downloader 8.00 93.0 85.0 6.0 96.0 90.0 6.00 90.0 84.0 
Infostealer $5.00 96.0 91.0 $0 97.0 93.0 4.00 91.0 87.0 
Trojan 7.00 93.0 86.0 3.00 98.0 95.0 8.00 89.0 81.0 
Backdoor 8.00 95.0 87.0 3.70 94.0 91.0 8.00 92.0 84.0 
平均 值 7.00 94.0 87.0 4.30 96.0 92.0 7.00 91.0 84.0 
为 直观 展示 CVSM 异常 检测 效果 ， 图 11 展示 了 特征 选择 
算法 和 LOF 组 合 时 在 Downloader 上 的 检测 结果 ， 其 中 Y 轴 表 0 
示 分 类 结果 的 可 信 度 。 可 以 看 出 当 Downloader 运行 后 , 相对 于 0 六 
正常 窗口 ， 异 常 窗口 具有 更 高 的 分 类 可 信和 度 ， 进 而 表现 出 更 好 § 0 
离 群 性 。 
0 5 10 个 20 25 
窗口 样本 
窗口 大 小 =200 个 时 钟 周 期 
5 
5 
100 150 200 250 
图 11 Downloader 上 的 LOF 结果 分 布 窗口 样本 
5.4 ”性 能 分 析 
检测 延迟 是 指 从 攻击 发 生 到 CVSM 检测 到 异常 之 间 的 时 
间 ， 从 该 角度 出 发 对 系统 性 能 进行 分 析 。 通 过 对 延迟 时 间 进 行 和 
测试 不 仅 可 以 评估 算法 性 能 ， 还 能 评估 CVSM 的 实时 性 。 
窗口 大 小 的 设 定 会 对 检测 延迟 产生 影响 ， 较 长 的 窗口 可 以 区 
捕获 到 更 多 系统 行为 ， 为 学 习 算 法 提供 更 充分 的 分 类 信息 ， 但 0 
同时 也 产生 了 较 大 的 计算 量 增加 了 检测 延迟 。 设 置 不 同窗 口 大 
图 12 窗口 大 小 与 样本 LOF 值 分 布 
小 时 正常 行为 和 异常 行为 的 LOF 数值 分 布 如 图 12 所 示 ， 其 中 
时 钟 周期 为 10 毫秒 。 由 图 12 可 以 看 出 ， 当 设置 较 小 的 窗口 (20 个 时 钟 周期 ) 


时 所 含 档 


本 较 少 ， 难 以 形成 有 效 的 密度 统计 ， 即 使 在 注入 恶意 


sm = 嘱 
1 


.02034V 
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程序 之 前 也 有 可 能 随机 出 
能 会 被 误 判 为 异常 ， 导 致 


较 大 的 窗 


口 〈《2 000 个 时 钟 周 


现 LOF 值 偏 高 的 正常 样本 , 这 些 点 可 
整个 窗口 被 误 分 为 异常 窗口 ， 当 设置 


对 密度 较 大 , 正常 样本 和 异 
容易 导致 整个 窗 


出 其 中 的 


马 党 ， 
二 3 下 


常 点 ， 


表明 当 设 置 窗 


的 分 类 效果 ， 该 时 间 段 内 可 以 向 后 端 
迟 内 检测 出 
口 大 小 后 测试 了 CVMS 的 检测 延迟 , 以 Database 
表示 从 注入 恶意 程序 到 和 4 
，Y 轴 表 示 时 间 延 迟 内 的 检测 率 。 


能 够 在 数 和 
在 确 


负载 为 例 的 结果 如 


成 警报 之 间 的 时 间 延 迟 


检测 


可 以 对 多 个 窗 


检测 率 


秒 钟 
定 窗 


的 延 


大 小 为 200 个 时 钟 导 


常 样本 


匡 | 


异常 行为 。 


多 


检 


率 和 


进行 持 丝 


于 提高 检测 率 。 但 如 果 等 
报 ， 则 该 操作 可 能 已 经 对 系统 造成 破坏 ;b) 如 果 检 测 时 间 过 短 而 


提前 生成 警报 ， 则 可 能 产生 较 多 的 误 报 现象 。 


13 所 示 ，X 轴 


阔 值 =2.08 ;有效 过 滤 宽 度 N =9 … 


6 8 10 12 


测 延 迟 ( 窗口 数目 ) 


仿 测 时 间 之 间 存 在 一 定 关系 : 


观测 ， 积 累 较 多 


完全 确 


期 ) 时 包含 样 


和 提供 充足 和 


的 LOF 值 都 偏 


se 
[三 确 7 


[可 站 


本 较 多 , 样本 间 的 相 
难以 识别 
被 误 分 为 正常 窗口 。 
期 (2s) 时 可 以 


测试 


取得 较 好 


二 


的 寻 


认 某 操作 存在 威胁 时 才 台 


a) 较 长 的 检 疯 


让 


和 分 类 


言 息 ， 也 


13 LOF 算法 在 Database 负载 上 的 检测 延迟 


特征 值 ， 


天 


HR 


I 时 间 
有 利 


成 警 


此 必须 在 保持 


适度 检测 率 和 误 报 率 的 前 提 下 及 时 生成 警报 。 


表 10 不 同 负载 上 的 检测 率 与 


LOF 


5 检测 延 


KNN 


Database 
Web 
EMail 


TP(%) FP(%) 
98 6 
96 0 
84 3 


检测 延迟 TP(%) 


11 98 


14 


恶意 


为 ， 则 从 六 


报 率 和 对 
NN 算法 如 


意 程序 六 


E 入 到 正常 负载 中 后 可 能 3 


FP(%) 


检测 延 


6 9 


3 1 


1 


5 


并 不 立即 产生 异常 行 


= 
a 


E 入 到 表现 出 


95% 样 


党 


E Web 负载 上 


之 间 存 在 潜伏 
CVSM 的 实际 检测 延迟 ， 因 此 考虑 了 多 数 (95%) 不 含 
恶意 程序 时 的 检测 延迟 。 表 10 列 出 了 不 同 负载 」 
本 的 检测 延迟 。 从 结果 中 可 以 看 出 , LOF 和 - 
有 较 高 的 检测 率 ， 同 时 也 具有 1 个 窗 
的 最 短 检测 延迟 (2s), 而 两 种 算法 在 Email 负载 上 的 检测 延 


期 ， 这 种 情况 会 
洪 
上 的 检测 率 、 误 


Ss: 
荆 


| 


伏 其 


迟 最 长 ( 约 30s)。 总 体 上 ，CVSM 可 以 在 平均 8.5 秒 的 延迟 内 


以 较 高 的 检测 率 和 中 等 
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本 文 针 对 虚拟 机 语义 鸿沟 问题 , 根据 硬件 体系 结构 数据 难 


等 误 


结束 语 


以 被 窜改 和 旁 绕 的 特性 收集 


呈报 率 评 


只 别 出 异常 


tuk 


了 VMM 


行为 。 


层 捕 获 的 数据 ， 


增强 


和 


了 数 


据 
行 


inaXiv 合 作 期 天 


类 寄 ， 等 ， 生 直 由 夺 过 逢 抽 肯 避 作 和 卫生 业 风 放生 村 过 


源 的 可 靠 性 。 通 过 对 CVSM 的 适应 性 设计 , 使 之 满足 能 够 进 
数据 挖掘 的 必要 条 件 ， 构 造 了 速率 特征 和 关系 特征 ， 为 机 器 


学 习 过 程 提 供 了 ; 
义 鸿 沟 桥 接 模型 。 


的 


确 而 简洁 的 数据 ， 建 立 了 基于 特 4 
实验 结果 表明 ，CVSM 仅 利 用 VMM 层 收 集 
数据 便 能 够 完成 异常 检测 ， 引 入 机 器 学 习 方 法 处 理 虚拟 机 数 
能 够 有 效 减 小 虚拟 机 特征 空间 ， 建 立 起 有 效 的 虚拟 机 执行 模 
识别 出 客户 机 的 异常 行为 ， 提 高 了 语义 鸿沟 桥接 效率 ， 为 
时 语义 鸿沟 问题 提供 了 一 种 可 行 方 案 。 


—— 
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